Národní úložiště šedé literatury Nalezeno 7 záznamů.  Hledání trvalo 0.01 vteřin. 
Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Faryad, Ján ; Zeman, Daniel (vedoucí práce) ; Lopatková, Markéta (oponent)
Vícejazyčné valenční slovníky poskytují užitečné informace o shodě valenčních rámců (sloves a jejich argumentů) v různých jazycích. Tato práce se zaměřuje na vývoj programu, který automaticky vytvoří vícejazyčný valenční slovník na základě paralelních korpusů anotovaných podle Universal Dependencies. Tato úloha zahrnuje jednojazyčnou extrakci valenčních rámců a jejich propojení napříč jazyky. Jsou analyzovány a implementovány různé metody řešení. Práce zahrnuje jak obecný, jazykově nezávislý přístup, tak dodatečná, jazykově specifická rozšíření, poskytnutá konkrétně pro angličtinu, češtinu a slovenštinu. Metody propojování valenčních rámců zahrnují použití slovního zarovnání, morfologické a syntaktické informace obsažené v anotaci UD nebo podobnosti sloves mezi příbuznými jazyky. Kvalita řešení je zhodnocena několika zave- denými metrikami na ručně anotovaných datech nebo porovnáním s existujícím valenčním slovníkem. 1
Robust Parsing of Noisy Content
Daiber, Joachim ; Zeman, Daniel (vedoucí práce) ; Mareček, David (oponent)
Ačkoli úspěšnost syntaktické analýzy (parsingu) doménově shodných textů se v posledních letech soustavně zvyšuje, texty mimo trénovací doménu a gramaticky problematické texty nadále vzdorují a často na nich pozorujeme výrazný pokles v kvalitě. V této práci se zaměřujeme na analýzu "zašuměného" vstupu pocházejícího ze služeb, jako je Twitter. Zkoumáme otázku, zda předzpracování textu založené na strojovém překladu a neřízených normalizačních modelech může zvýšit úspěšnost analýzy takových dat. Zkoumané postupy vyhodnocujeme na existujících testovacích datech, kromě toho jsme vytvořili i vlastní data pro závislostní syntaktickou analýzu zašuměných dat z Twitteru. Ukazujeme, že normalizace textu kombinovaná s obecnými i doménově zaměřenými taggery může vést k významnému zlepšení kvality parsingu. Powered by TCPDF (www.tcpdf.org)
Forma a funkce u substantiv v češtině: vztah pádu a syntaktické funkce. Na materiálu korpusu současné psané češtiny (SYN2005)
Jelínek, Tomáš ; Petkevič, Vladimír (vedoucí práce) ; Lopatková, Markéta (oponent) ; Uličný, Oldřich (oponent)
Pád je v češtině základním prostředkem morfologické roviny, jímž substantiva vyjadřují svou funkci ve větě. Cílem této práce je popsat z frekvenčního hlediska vztah mezi formou a funkcí substantiv, přesněji řečeno, jak často se prosté a předložkové pády substantiv používají k realizaci syntaktických funkcí ve větě. Práce je založena na rozsáhlém korpusu synchronní psané češtiny SYN2005. Abychom získali údaje o frekvencích syntaktických funkcí substantiv ve vztahu k jejich pádům, opatřili jsme korpus SYN2005 závislostním syntaktickým značkováním, jehož formát jsme převzali z analytické roviny Pražského závislostního korpusu. Syntaktickou anotaci jsme uskutečnili pomocí stochastického MST parseru. Spolehlivost syntaktické anotace však nebyla dostatečně vysoká, vytvořili jsme proto automatický opravný modul, který vyhledává chyby syntaktické anotace ve výstupu stochastického parseru a na základě lingvistických pravidel tyto chyby opravuje. Implementovali jsme 26 různých pravidel, počet chyb anotace se však podařilo snížit jen o 6-8 %. Opravný modul je však možné dále rozvíjet. Lze jím korigovat výstup kteréhokoli závislostního parseru natrénovaného na datech Pražského závislostního korpusu. Syntakticky anotovaný korpus SYN2005 jsme využili jako základ výzkumu frekvence syntaktických funkcí substantiv...
Využití syntaxe v metodách pro vyhledávání informací
Straková, Jana
Název práce: Využití syntaxe v metodách pro vyhledávání informací Autor: Bc. Jana Kravalová Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Mgr. Pavel Pecina, Ph.D. e-mail vedoucího: pecina@ufal.mff.cuni.cz Abstrakt: V posledních letech výzkumu v oblasti vyhledávání informací je věnována značná pozornost metodám založeným na jazykovém modelování. I přesto, že tento přístup dovoluje použití libovolného jazykového modelu, většina publikovaných experimentů byla prováděna s klasickým n-gramovým modelem (mnohdy pouze s unigramovým modelem). Cílem diplomové práce je navrhnout, implementovat a vyhodnotit (na českých datech) metodu, která by pravděpodobnostní model obohatila o použití syntaktické informace získané automaticky (strojově\) z dokumentů i dotazů. V předkládané práci se pokusíme vhodným způsobem zavést syntaktickou informaci do jazykových modelů a ex- perimentálně srovnáme navržený přístup s výsledky unigramového a bigramo- vého povrchového modelu. Kromě využití syntaktické informace se zaměříme také na vliv vyhlazování, stemmingu, lemmatizace, použití stopwords a me- tody rozšiřování dotazů - pseudo relevance feedback. Provedeme také detailní analýzu použitých systémů vyhledávání informace a podrobně popíšeme jejich vlastnosti. Experimenty budou prováděny na...
Robust Parsing of Noisy Content
Daiber, Joachim ; Zeman, Daniel (vedoucí práce) ; Mareček, David (oponent)
Ačkoli úspěšnost syntaktické analýzy (parsingu) doménově shodných textů se v posledních letech soustavně zvyšuje, texty mimo trénovací doménu a gramaticky problematické texty nadále vzdorují a často na nich pozorujeme výrazný pokles v kvalitě. V této práci se zaměřujeme na analýzu "zašuměného" vstupu pocházejícího ze služeb, jako je Twitter. Zkoumáme otázku, zda předzpracování textu založené na strojovém překladu a neřízených normalizačních modelech může zvýšit úspěšnost analýzy takových dat. Zkoumané postupy vyhodnocujeme na existujících testovacích datech, kromě toho jsme vytvořili i vlastní data pro závislostní syntaktickou analýzu zašuměných dat z Twitteru. Ukazujeme, že normalizace textu kombinovaná s obecnými i doménově zaměřenými taggery může vést k významnému zlepšení kvality parsingu. Powered by TCPDF (www.tcpdf.org)
Využití syntaxe v metodách pro vyhledávání informací
Straková, Jana
Název práce: Využití syntaxe v metodách pro vyhledávání informací Autor: Bc. Jana Kravalová Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Mgr. Pavel Pecina, Ph.D. e-mail vedoucího: pecina@ufal.mff.cuni.cz Abstrakt: V posledních letech výzkumu v oblasti vyhledávání informací je věnována značná pozornost metodám založeným na jazykovém modelování. I přesto, že tento přístup dovoluje použití libovolného jazykového modelu, většina publikovaných experimentů byla prováděna s klasickým n-gramovým modelem (mnohdy pouze s unigramovým modelem). Cílem diplomové práce je navrhnout, implementovat a vyhodnotit (na českých datech) metodu, která by pravděpodobnostní model obohatila o použití syntaktické informace získané automaticky (strojově\) z dokumentů i dotazů. V předkládané práci se pokusíme vhodným způsobem zavést syntaktickou informaci do jazykových modelů a ex- perimentálně srovnáme navržený přístup s výsledky unigramového a bigramo- vého povrchového modelu. Kromě využití syntaktické informace se zaměříme také na vliv vyhlazování, stemmingu, lemmatizace, použití stopwords a me- tody rozšiřování dotazů - pseudo relevance feedback. Provedeme také detailní analýzu použitých systémů vyhledávání informace a podrobně popíšeme jejich vlastnosti. Experimenty budou prováděny na...
Forma a funkce u substantiv v češtině: vztah pádu a syntaktické funkce. Na materiálu korpusu současné psané češtiny (SYN2005)
Jelínek, Tomáš ; Petkevič, Vladimír (vedoucí práce) ; Lopatková, Markéta (oponent) ; Uličný, Oldřich (oponent)
Pád je v češtině základním prostředkem morfologické roviny, jímž substantiva vyjadřují svou funkci ve větě. Cílem této práce je popsat z frekvenčního hlediska vztah mezi formou a funkcí substantiv, přesněji řečeno, jak často se prosté a předložkové pády substantiv používají k realizaci syntaktických funkcí ve větě. Práce je založena na rozsáhlém korpusu synchronní psané češtiny SYN2005. Abychom získali údaje o frekvencích syntaktických funkcí substantiv ve vztahu k jejich pádům, opatřili jsme korpus SYN2005 závislostním syntaktickým značkováním, jehož formát jsme převzali z analytické roviny Pražského závislostního korpusu. Syntaktickou anotaci jsme uskutečnili pomocí stochastického MST parseru. Spolehlivost syntaktické anotace však nebyla dostatečně vysoká, vytvořili jsme proto automatický opravný modul, který vyhledává chyby syntaktické anotace ve výstupu stochastického parseru a na základě lingvistických pravidel tyto chyby opravuje. Implementovali jsme 26 různých pravidel, počet chyb anotace se však podařilo snížit jen o 6-8 %. Opravný modul je však možné dále rozvíjet. Lze jím korigovat výstup kteréhokoli závislostního parseru natrénovaného na datech Pražského závislostního korpusu. Syntakticky anotovaný korpus SYN2005 jsme využili jako základ výzkumu frekvence syntaktických funkcí substantiv...

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.